1
통계량을 무작위 변수로 보는 시각: 표본 분포
MATH003Lesson 4
00:00
통계적 추론에서는 개별 데이터 포인트를 관찰하는 것에서 시작해, 표본 시퀀스에 대한 함수적 사상 $Y = h(X_1, X_2, \dots, X_n)$으로 정의되는 **통계량**을 분석하게 됩니다. 표본이 무작위 변수들로 구성되어 있으므로 통계량 자체도 무작위 변수이며, 그 확률 법칙은 **표본 분포**(sampling distribution)라고 알려져 있습니다.

통계량을 사상으로 보는 시각

통계량은 공식적으로 함수 $h: \mathbb{R}^n \to \mathbb{R}$로 정의됩니다. 통계량이 집합 $B$에 속할 확률은 전이상(전이역상, pre-image)을 통해 정의합니다:

$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$

i.i.d. 기반

i.i.d. (독립적이고 동일한 분포를 가진) 무작위 변수들의 표본에 대해 특정 샘플 포인트 $(x_1, \dots, x_n)$의 결합 확률은 각각의 마진 확률의 곱입니다: $p(x_1)p(x_2)\dots p(x_n)$. 이 곱은 통계량이 특정 값을 취할 때의 총 확률을 계산할 때 각 점의 가중치 역할을 합니다.

예제 4.1.1: 기하 평균

확률 질량 함수가 $p_X(1) = 1/2$, $p_X(2) = 1/4$, $p_X(3) = 1/4$인 이산 모집단을 고려해 봅시다. 우리는 크기 $n=2$의 표본($X_1, X_2$)을 추출하고 통계량을 기하 평균 $Y_2 = (X_1 X_2)^{1/2}$로 정의합니다.

통계량 $Y_2$의 분포를 구하기 위해, 가능한 9개의 모든 쌍 $(X_1, X_2)$을 나열하고, 각각의 결합 확률과 결과값 $Y_2$를 계산합니다:

쌍 $(x_1, x_2)$확률 $P(x_1)P(x_2)$$Y = \sqrt{x_1 x_2}$
(1, 1)1/41.000
(1, 2), (2, 1)1/8 + 1/8 = 1/41.414
(1, 3), (3, 1)1/8 + 1/8 = 1/41.732
(2, 2)1/162.000
(2, 3), (3, 2)1/16 + 1/16 = 1/82.449
(3, 3)1/163.000

정확한 분포와 귐사 분포

중앙극한정리(CLT)와 같은 극한 정리로 넘어가기 전에, "정확한 분포"를 완전히 이해해야 합니다. 이는 작은 유한한 $n$에 대해 통계량의 구체적인 확률 질량 또는 밀도 함수를 계산하는 것을 의미합니다. 해석적 형태가 다루기 어려워지면, **몬테카르로 근사**(Monte Carlo approximations)와 같은 수치 시뮬레이션을 사용하게 됩니다.

🎯 핵심 원리
표본 분포란 어떤 i.i.d. 시퀀스에 대한 함수에 해당하는 무작위 변수의 분포를 의미합니다. 이는 원시 데이터와 과학적 추론 사이의 연결고리입니다.